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(57) Zusammenfassung: Die Erfindung betrifft ein Verfah- 
ren und ein System zum Erfassen von Daten aus mehreren 
maschineli lesbaren Dokumenten. Beim erfindungsgema- 
fien Verfahren werden aus einem zu beartjeitenden Doku- 
ment, dem Lesedokument, Daten extrahiert, indem sie an 
Positionen aus dem Lesedokument ausgelesen werden, 
die durch in einem Vorlagedokument etngetragenen Felder 
bestimmt sind. 

Tritt ein Fehler beim Auslesen der Lesedokumente auf, wird 
das Lesedokument an einem Bildschirm dargestellt und le- 
diglich durch Markieren entsprechender Felder im Lesedo- 
kument konnen die Daten ausgelesen werden. Zum Bedie- 
nen des erflndungsgemaden Systems sind keine weiteren 
Kenntnisse notwendig. 



Einlese eines oder 
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Zuordnen eines Vortage- 
dokumentes zu einem 
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1 — S3 
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Beschreibung 

[0001] Die Erfindung betrlfft ein Verfahren und em 
System zum Erfassen von Daten aus mehreren ma- 
schinell lesbaren Dokumenten. 

[0002] Derartige Verfahren und Systeme sind be- 
kannt. Ublicherweise weisen die Systeme einen 
Scanner auf. mit welchem Vorlagen optisch abgetas- 
tet werden. Die hierbei erzeugten Datelen sind ma- 
schinell lesbare DoKumente und enthalten in der Re- 
gel Textelemente. Die Textelemente werden mit Hilfe 
einer OCR-Einrichtung In codierten Text umgesetzt. 
Den Datelen werden in der Regel vorbestimmte For- 
mulare bzw. Templates zugeordnet, so dass anhand 
der Formulare gezielt bestimmte Informationen aus 
den Text enthaltenden Dateien ermittelt werden kon- 
nen. Diese Informationen werden zum Beispiel in ei- 
ner Datenbank abgespeichert. 

[0003] Derartige Verfahren und Systeme werden 
beispielsweise bel grol^en FIrmen eingesetzt, um 
Rechnungen zu lesen. Die so extrahierten Daten 
konnen automatisch einer betriebswirtschaftlichen 
Software ubermittelt werden. 

[0004] Ein solches System ist beispielsweise in der 
US 4,933,979 beschrieben. Dieses System weist ei- 
nen Scanner zum optischen Abtasten von Formula- 
ren aul Bel diesem System konnen eine Vielzahl von 
Formulartypen definiert werden, wobei jeder Formu- 
lartyp bzw. Template durch mehrere Parameter, ins- 
besondere geometrisch definierte Bereichen, in wel- 
chen Texte Oder Bllder enthalten sein sollen, festge- 
legt Ist. Die Formulartypen konnen auch durch welte- 
re Elgenschaften, wie zum Beispiel der Schrift, die In 
den Texten enthalten ist (Alphabet, Zahlen, Symbole. 
Katakana, Kanji, Handschrlft) definiert sein. Nach 
dem Scannen eines Formulares wird mittels einer 
Formuiartypunterscheidungseinrichtung dem ge- 
scannten Formular ein Template zugeordnet. Dem- 
entsprechend werden die in dem Textfeld enthalte- 
nen Daten mittels einer OCR-Elnrichtung gelesen 
und extrahiert. Falls kein geeignetes Template vor- 
handen ist. muss eines erstellt werden. Dies Ist auf- 
wandig. Hierzu ist Personal notwendig, das speziell 
fur dieses System ausgebildet sein muss und zumln- 
dest Gmndkenntnisse der Computer- und Software- 
technik haben muss. 

Stand der Technik 

[0005] Aus der WO 98/47098 geht ein welteres Sys- 
tem zum automatischen Erfassen von Daten aus ma- 
schinell lesbaren Dokumenten hervor. Hierbei wer- 
den mittels eines Scanners Formulare optisch abge- 
tastet. Danach wird automatisch eine Linien-Karte 
des Formulars erstellt. Hierbei werden zum einen alle 
LInien erfasst als auch grafische Elemente in eine Li- 
nienstruktur umgesetzt. Andere Elemente, wie zum 



Beispiel Textabschnitte. werden ausgefiltert. Alle ver- 
tikalen Linien bllden die Grundlage zur Erstellung ei- 
nes vertikalen Schlussels und alle horizontalen Lini- 
en bllden die Grundlage zur Erstellung eines horizon- 
talen Schlussels. Danach wird ermittelt. ob bereits ein 
Template mit einem korrespondierenden vertikalen 
und horizontalen Schlussel vorhanden ist. Falls dies 
der Fall ist, werden die Daten mit einem entsprechen- 
den Template ausgelesen, Ist dies nicht der Fall, so 
wird anhand des eingescannten Formulars mittels ei- 
nes Selbstlern-Modus ein Template erstellt und abge- 
speichert. Der Benutzer kann hierbei die Erstellung 
des Templates manuell unterstutzen. Auch hier sollte 
der Benutzer bel der Templateerstellung gute Kennt- 
nisse von diesem System, insbesondere dessen 
Soflwarestruktur besitzen, damit fur den Betrieb ge- 
eignelte Templates erstellt werden. 

[0006] In dem Buch Modern Information Retrieval 
von Baeza- Yates und RIbeiro-Neto, Eddison-Wess- 
ley Verlag, ISBN 0-201-39829-X sind die Grundlagen 
von Datenbanken und zum schnellen Wiederauffin- 
den von in Datenbanken gespeicherten Informatio- 
nen eriautert. So Ist im Kapitel 8.2 ein Verfahren mit 
invertierten Dateien, das auch als invertierter Index 
bezeichnet wird, beschrieben. Bel diesem Verfahren 
wird aus einem zu untersuchenden Text zunachst ein 
Worterbuch mit alien im Text enthaltenen Wortern er- 
stellt. Allen Wortern des Worterbuches werden eine 
Oder mehrere Zahlen zugeordnet, die angeben, an 
welcher Stelle das Wort im Text auftritt. Derartige in- 
vertierte Dateien eriauben eine schnellere automati- 
sche Analyse eines zu durchsuchenden Textes. Im 
Kapitel 8.6.1 ist ein String Matching-Verfahren be- 
schrieben, mit welchem zwei Strings verglichen wer- 
den und ein zur Ahnlichkeit der Strings indlrekt pro- 
portionales Kostenmafi berechnet wird. Wenn die 
beiden Strings identisch sind, ist der Betrag des Kos- 
tenmafies Null. Je starker sich die Strings unterschei- 
den, desto grdl^er ist der Betrag des Kostenmal^es. 
Das Kostenmali ist somit ein Ausdruck fur die Ahn- 
lichkeit der beiden Strings. Dieses und ahnliche Ver- 
fahren sind auch unter den Bezeichnungen Approxi- 
mate String Matching, Levenshte in- Verfahren, Elas- 
tic Matching und Viterbi-Algorythmus bekannt. Diese 
Verfahren gehoren zu dem Gebiet der dynamischen 
Programmierung. 

Aufgabenstellung 

[0007] Der Erfindung liegt die Aufgabe zugrunde, 
ein Verfahren und ein System zum Erfassen von Da- 
ten aus maschinell lesbaren Dokumenten zu schaf- 
fen, das sehr einfach und ohne Kenntnlsse der Com- 
puter- und Softwaretechnik bedienbar ist. 

[0008] Die Aufgabe wird durch ein Verfahren mit 
den Merkmalen des Anspruchs 1 und durch ein Sys- 
tem mit den Merkmalen des Anspruchs 11 gelost. 
Vorteilhafte Ausgestaltung der Erfindung sind in den 
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jeweiligen Unteranspruchen angegeben. 

[0009] Das erfindungsgemaRe Verfahren zum Er- 
fassen von Daten aus mehreren maschinell lesbaren 
Dokumenten umfassl folgende Schritte: 

- Zuordnen zu einem zu bearbeitenden Doku- 
ment, das nachfotgend als Lesedokument be- 
zeichnet wird. zumindest ein bereits bearbeitetes 
Dokument. das als Vorlage gespeichert ist und 
nachfolgend als Vorlagedokument bezelchnet 
wird, wobei In dem Vorlagedokument Felder fiir zu 
extrahierende Daten definiert sind, 

- automatisches Extrahieren der in dem Lesedo- 
kument enthaltenen Daten aus den Berelchen, die 
den Feldern in dem Vorlagedokument entspre- 
chen, 

- sollte beim automatischen Extrahieren der Da- 
ten ein Fehler aufgetreten sein Oder kein geeigne- 
tes Vorlagedokument zugeordnet worden sein. so 
wird das Lesedokument an einem Bildschirm dar- 
gestellt, und Mittel zum manuellen Eingeben von 
Feldern in das Lesedokument zur Verfugung ge- 
stellt, aus welchen die Daten extrahlert werden. 

[001 0] Bei dem erflndungsgemafien Verfahren sind, 
falls ein Lesedokument nicht automatisch extrahiert 
werden kann, darin lediglich die Felder einzugeben, 
aus welchen die Daten erfasst werden sollen. ohne 
dass vom Benutzer weitere EIngaben verlangt wer- 
den, die Computer- und Softwarekenntnlsse voraus- 
setzen. 

[0011] Dies wird dadurch ermoglicht, dass als Vorla- 
gedokumente jeweils ein im wesentlichen unveran- 
dertes Lesedokument gespeichert wird, dem lediglich 
Angaben, wie die Definitlonen der Felder, hinzuge- 
fugt sind. 

[0012] Die Erfindung unterscheidet sich gegenuber 
herkommlichen Verfahren dadurch, dass beim Ermit- 
teln der Ahnlichkeit der Lesedokumente mit einem 
Vorlagedokument nicht speziell abgeleilete Parame- 
ter, wie zum Beispiel Linienschlussel Oder derglei- 
chen, verglichen werden, die speziell erstellt werden 
mussen, sondern die Vorlagedokumente die ur- 
sprunglichen Lesedokumente im wesentlichen un- 
verandert enthalten, wobei lediglich zusatzliche Infor- 
mationen hinzugefugt sind. 

Ausfuhrungsbeispiel 

[0013] Die Erfindung wird nachfolgend naher an- 
hand der Zeichnungen eriautert. In den Zeichnungen 
zeigen: 

[0014] Fig. 1 die Grundstrukturen des erflndungs- 
gemafien Verfahrens in einem Flussdiagramm, 

[0015] Fig. 2 einen detaillierten Ablauf des erfin- 
dungsgemaRen Verfahrens zum Extrahieren von Da- 



ten aus einem Lesedokument in einem Flussdia- 
gramm, 

[0016] Fig. 3 einen Abschnitt des erflndungsgema- 
fien Verfahrens zum automatischen Erstellen eines 
neuen Vorlagedokumentes. 

[0017] Fig. 4 eine Kopie der Bildschirmoberflache 
zum manuellen Eingeben eines Feldes, 

[0018] Fig. 5 die Abblldung eines Lesedokumentes 
auf ein Vorlagedokument, und 

[0019] Fig. 6 schematisch ein System zum Ausfuh- 
ren des erflndungsgemafien Verfahrens In einem 
Blockschaltbild 

[0020] Die Grundstruktur des erflndungsgemafien 
Verfahrens ist schematisch in dem in Fig. 1 gezeig- 
ten Flussdiagramm dargestellt. 

[0021] Das Verfahren beginnt mit dem SchrittSI. Im 
Schritt S2 werden eines oder mehrere maschinell les- 
bare Dokumente eingelesen. Das Einlesen der Doku- 
mente kann zum Beispiel mittels eines Scanners er- 
folgen. Die Dokumente konnen jedoch auch bereits in 
maschinenlesbarer Form vorliegende Dokumente 
sein, wie zum Beispiel e-Mails, Text enthaltende Da- 
teien oder in Datenbanken gespeicherte Dokumente. 
Ein maschinell lesbares Dokument ist jedes von ei- 
nem Computer lesbare Dokument. Die Dokumente 
konnen jeweils in einer separaten Datei gespeichert 
sein. Es ist jedoch auch moglich, dass mehrere Do- 
kumente in einer einzigen Datel zusammengefasst 
sind. Insbesondere konnen die Dokumente in einer 
Datenbank enthalten sein. Die Dokumente konnen 
als Graflkdatei gespeichert sein. Die Dokumente kon- 
nen auch als Textdatei vorliegen oder Kombinationen 
aus Grafik- und Textelementen enthalten. Enthalten 
die Dokumente Textabschnitte, die als Grafik gespei- 
chert sind, so sind die Dokumente mit einem 
OCR-Verfahren im Schritt S2 in codierten Text umzu- 
setzen. Derartige Verfahren sind hinlanglich bekannt 
und mussen nicht eriautert werden. 

[0022] Bei einer bevorzugten Ausfuhrungsform der 
Erflndung werden im Schritt S2 das bzw. die Lesedo- 
kumente auf Syntax und semanlische Inhalte unter- 
sucht. Zum Beispiel konnen als syntaktische Inhalte 
Datumsangaben, Wahrungsbetrage, Leistungsbetra- 
ge Oder andere regulare Ausdrucke festgestellt wer- 
den. Als semantische Inhalte werden beispielswelse 
Bezeichnungen von Artikein oder Dienstleistungen 
erkannL 

[0023] Das erfindungsgemafle Verfahren kann un- 
ter anderem zum Lesen von Rechnungen und auto- 
matischen Extrahieren der darin enthaltenen Daten 
verwendet werden, wobei die extrahierten Daten ei- 
ner betrlebswirtschaftlichen Software ubergeben 
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werden. Bei einer solchen Anwendung des erfin- 
dungsgemaHen Verfahrens ist es besonders zweck- 
maliig, belm Einlesen eines oder mehrere Dokumen- 
te, die als Lesedokumente bezeichnet werden, syn- 
taktische Inhalte, wie Betragsfelder oder Datumsfel- 
der und semantische Inhalte wie die Bezeichnung 
des Artikels bzw. Dienstleistung zu identifizieren. 

[0024] Dann wird einem zu bearbeitendem Lesedo- 
kument ein Vorlagedokument zugeordnet (Schritt 
S3). Ein Vorlagedokument ist ein bereits fruher bear- 
beitetes Lesedokument, in dem Felder enthalten 
sind. aus welchen Daten zu extrahieren sind. 

[0025] Das Lesedokument und das Vorlagedoku- 
ment besitzt einen ahnlichen Aufbau bzw. ein ahnli- 
ches Format, d.h., dass ahnliche Daten an den glei- 
chen Stellen in den Dokumenten angeordnet sind. In 
der Regel sind die einander zugeordneten Lese- und 
Vorlagedokumente gleiche Formulare. Im Schritt S4 
werden aus dem Lesedokument an den Stellen Da- 
ten extrahiert, an welchen korrespondierende Felder 
Im Vorlagedokument angeordnet sind. DIese extra- 
hierten Daten konnen zum Beispiel in eine Daten- 
bank eingetragen werden und/oder von einer weite- 
ren Software bearbeitet werden. 

[0026] Im Schritt S5 wird gepruft, ob beim Extrahie- 
ren der Daten ein Fehler aufgetreten ist. Ein Fehler 
kann dadurch verursacht sein, dass kein Vorlagedo- 
kument zugeordnet werden konnte oder ein ungeeig- 
netes Vorlagedokument dem Lesedokument zuge- 
ordnet worden ist. Ein ungeeignetes Vorlagedoku- 
ment ist zum Beispiel ein Dokument, dessen Felder 
nicht mit den Stellen des Lesedokumentes uberein- 
stimmt, an dem im Lesedokument Daten enthalten 
sind. Ein Fehler kann auch dadurch verursacht sein, 
dass in dem eingelesenen Lesedokument eine fal- 
sche Angabe enthalten ist, zum Beispiel an der Stel- 
le, wo das Datum stehen soil, Buchstaben angeord- 
net sind. Ein solcher Fehler kann auch beim Einlesen 
des Lesedokumentes mittels eInes OCR-Verfahrens 
entstehen, indem ein oder mehrere Zeichen falsch 
umgesetzt werden. 

[0027] Falls im Schritt S5 ein Fehler festgestellt 
wird, wird das Lesedokument an einem Bildschirm 
dargestellt und Mittel zum manuellen Eingeben von 
Feldern in das Lesedokument zur Verfugung gestellt. 
Eine solche Bildschirmoberflache ist In Fig. 3 darge- 
stellt. Im Fenster 1 am rechten Rand ist das Lesedo- 
kument 2. eine Rechnung, dargestellt. Im Fenster 3 in 
der Mitte unten sind eine Reihe von Dateneinheiten 4 
aufgefuhrt, die aus dem Lesedokument extrahiert 
werden. Dies sind die Rechnungsnummer des Ab- 
senders (^InvoiceSender**), die Auftragsnummer 
(,AufNum") und die Auftragsrechnungsnummer („ln- 
voiceOrdernumber"). Die Auftragsnummer ist hierbei 
mit einer anderen Farbe als die ubrigen Dateneinhei- 
ten unterlegt. das bedeutet. dass diese Dateneinheit 
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nicht korrekt gelesen werden konnte. Der Benutzer 
markiert dann mit der Maus ein Feld 5 im Lesedoku- 
ment 2, das die Auftragsnummer beinhaltet. Nach der 
Markierung eines Feldes wird dann der Feldinhalt ge- 
lesen, wobei dann in einem Fenster 6, das oberhalb 
des Fensters 3 der Dateneinheiten angeordnete ist, 
der decodterte Inhalt des Feldes dargestellt wird, der 
im vorliegenden Fall „4500118788/AT" ist und in dem 
daruber angeordneten Fenster 7 wird die nichtdeco- 
dierte grafische Darstellung des Feldinhaltes vergro- 
Bert angezeigt Der Benutzer kann somit die Grafik 
des Feldes 5 lesen und mit dem decodierten Feldin- 
halt vergleichen. Ist dies korrekt, so ist die Auftrags- 
nummer richtig decodiert worden und durch einen 
weiteren Klick mit der Maus auf die Dateneinheit 4 im 
Fenster 3 wird dieser Wert ubernommen. In dem vor- 
liegenden Ausfuhrungsbeispiel wird der Wert in eine 
Datenbank einer betriebswirtschaftlichen Software 
eingetragen. Sind alle Feldinhalte extrahiert worden, 
wird mit einem unten naher eriauterten Abschnitt des 
Verfahrens ermittelt, ob anhand der von dem Benut- 
zer markierten Felder ein neues Vorlagedokument 
erstellt wird, was dann gegebenenfalls automatisch 
durchgefuhrt wird. Die beschriebenen Benutzeraktio- 
nen konnen mit der Maus oder auch vollstandig uber 
die Tastatur gesteuert werden. 

[0028] Nach der manuellen Obernahme der Daten 
gemall dem Schritt S6 oder nachdem im Schritt S5 
festgestellt worden 1st, dass beim Extrahieren der Da- 
ten kein Fehler aufgetreten ist, wird im Schritt S7 ge- 
pruft, ob ein weiteres zu bearbeitendes Lesedoku- 
ment vorliegt. Falls dies der Fall Ist, geht der Verfah- 
rensablauf wieder auf den Schritt S3 uber. Ansonsten 
endet das Verfahren mit dem Schritt S8. 

[0029] Nachfolgend wird der Abschnitt des obigen 
Verfahrens mit den Schritten S3 bis S6 anhand des in 
den Fig. 2 und 3 dargestellten bevorzugten Ausfuh- 
rungsbeispieles naher eriautert. Bei diesem Ausfuh- 
rungsbeispiel sind die Schritte des Zuordnens eines 
Vorlagendokumentes zu einem Lesedokument und 
das Extrahieren der Daten ineinander verzahnt, wie 
es aus der folgenden Beschreibung hervorgeht 

[0030] Dieser Verfahrensabschnitt beginnt mit dem 
Schritt S10. im Schritt S11 wird eine Grobauswahl 
der Vorlagedokumente vorgenommen. Hierzu wird 
zum Beispiel das eingangs eriauterte Verfahren der 
invertierten Dateien (siehe Kapitel 8.2 Inverted Files 
in Modern Information Retrieval, ISBN 
0-201-39829-X) verwendet. Dementsprechend wird 
zunachst ein Worterbuch von nach einem vorbe- 
stimmten Kriterium ausgewahlten Wortern aller Vor- 
lagedokumente erstellt und den einzelnen Wortern 
werden die Zahlen zugeordnet, die die Vorlagedoku- 
mente bezeichnen, in denen das Wort enthalten ist. 
Nach einem vorbestimmten Kriterium wird das Lese- 
dokument mit den Vorlagedokumenten verglichen. 
Dieses Kriterium kann zum Beispiel aus den fiinf 
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groQten Wortern des Lesedokumentes bestehen, die 
mil den Wortern der Vorlagedokumente verglichen 
werden. Es werden dann die Vorlagedokumente aus- 
gewahlt, die auch diese funf grofiten Worter des Le- 
sedokumentes enthalten. Die Verwendung dergroli- 
ten Worter beruht auf der Erkenntnis. dass gro&e 
Worter einen hohen Informationsgehalt besitzen und 
oftmals ein etndeutiges Erkennungszeichen ergeben. 
Anstelle der grofiten Worter konnen zum Beispiel 
auch die funf Worter venvendet werden, die zu Be- 
ginn des Textes des Lesedokumentes stehen. Bei 
Formularen sind die funf ersten Worter in der Regel 
im Briefkopf enthalten, wodurch die funf ersten Wor- 
ter oftmals fur einen bestimmten Absender sehr spe- 
zifisch sind. 

[0031] Mit dieser Grobauswahl wird die Anzahl der 
Vorlagedokumente, die in der Regel einige Hundert- 
tausend umfasst, auf einige wenige tausend Oder ei- 
nige hundert Dokumente reduziert. 

[0032] Im Schritt S1 2 wird gepruft, ob die Anzahl der 
mit der Grobauswahl ermittelten Dokumente noch zu 
grofl ist. Uberschreitet sie einen Schwellwert, der 
zum Beispiel im Berelch von 1000 bis 10000 liegt, so 
geht der Verfahrensablauf auf den Schritt SI 3 uber, 
In dem die Auswahlkriterien verfeinert werden. Eine 
solche- Verfeinerung der Auswahlkriterien kann zum 
Beispiel durch Erhohen der Anzahl der zu verglei- 
chenden Worte oder durch weitere Kriterien erfolgen, 
die belm Vergleich zwischen dem Lesedokument und 
den verbliebenen Vorlagedokumenten durchgefiihrt 
werden. Diese Grobauswahl wird somit mit den ver- 
feinerten Auswahlkriterien erneut durchgefiihrt 
(Schritt S11), danach wird wiederum gepruft, ob die 
Anzahl der ausgewahlten Vorlagedokumente zu groB 
ist. Ist dies nicht der Fall, geht der Verfahrensablauf 
auf den Schritt SI 4 uber. 

[0033] Im Schritt SI 4 werden die in der Grobaus- 
wahl selektierten Vorlagedokumente mit dem Lese- 
dokument verglichen und zu jedem Vorlagedokument 
wird ein die Ubereinstimmung der beiden Dokumente 
beschreibendes Kostenmaft berechnet. Dieses Kos- 
tenmafl wird im folgenden als Ahnlichkeit bezeichneL 

[0034] Dieses Kostenmaf^ wird zum Beispiel mit ei- 
ner Kostenfunktion berechnet, wie sie Im Kapitel 
8.6.1 String Matching Allowing Errors in Modern In- 
formation Retrieval (ISBN 0-201-39829-X) beschrle- 
ben Ist. Je geringer dieses Kostenmad Ist, desto gro- 
wer ist die Ahnlichkeit. Bel dem vorllegenden Verfah- 
ren werden mit der Kostenfunktion Worter bezie- 
hungsweise durch Leerzeichen getrennte Textzeilen- 
stucke Oder Folgen von Wortern der zu vergleichen- 
den Dokumente verglichen und fur je zwei Worter 
wird ein Kostenwert berechnet. Mittels des Vlterbi-AI- 
gorythmuswird eine Abbildung der beiden Dokumen- 
te zueinander ermittelt, welche die geringsten Ge- 
samtkosten autweisen. Die Gesamtkosten stellen 



das Kostenmafl fur diese beiden Dokumente dar. Die 
ermltteite Abbildung. die die Abbildung der Felder 
des Vorlagedokumentes auf korrespondierende Po- 
sitionen des Lesedokumentes umfasst, wird bei einer 
unten naher erlauterten Extraktion verwendet. falls 
dieses Vorlagedokument zur Extraktion ausgewahit 
werden sollte. Bel zwel identlschen Dokumenten be- 
tragt das KostenmaB Null. Das KostenmaB ist indi- 
rekt proportional zur Ahnlichkeit der Dokumente. 

[0035] Im Schritt S15 werden entsprechend der er- 
mittelten Ahnlichkelten Vorlagedokumente ausge- 
wahit. Bel diesem Auswahlverfahren werden entwe- 
der Vorlagedokumente ausgewahit, die einen be- 
stimmten Ahnlichkeitswert uberschreiten, d.h., das 
Kostenmaft ist kleiner als ein vorbestimmter Wert 
Oder es werden eine vorbestlmmte Anzahl ahnlichs- 
ter Vorlagedokumente ausgewahit. Diese Anzahl 
kann zum Beispiel im Berelch von 10 bis 100 oder so- 
gar bis 1000 betragen. 

[0036] Im Schritt S16 wird das Lesedokument ge- 
mafl den ausgewahlten Vorlagedokumenten extra- 
hlert. Ist die Anzahl der Vorlagedokumente noch sehr 
grofi, d.h. zum Beispiel grofier als 50 oder groBer als 
100, dann kann es zweckmaliig sein, nicht alle Fel- 
der, sondern lediglich einen Teil davon zu extrahie- 
ren. Vorzugsweise werden die Felder extrahiert, die 
erfahrungsgemali bei eIner korrekten Zuordnung el- 
nes Vorlagedokumentes zu einem Lesedokument 
eine fehlerfreie Extraktion der Daten eriauben. Dies 
wird unten noch naher ausgefuhrt. 

[0037] Danach werden im Schritt SI 7 die Extrakti- 
onsergebntsse bewertet. Die Bewertung erfolgt nach 
dem oben beschriebenen String Matching-Verfahren. 
wobei die aus dem Lesedokument gelesenen Daten 
sowie deren Umgebung mit den in den korrespondie- 
renden Feldern und Umgebung der Voriagedoku- 
mente entstehenden Daten verglichen und das Kos- 
tenmaH berechnet wird. Felder gelten Insbesondere 
dann als gut fehlerfrei) extrahiert, wenn die Umge- 
bung auf dem Lesedokument und dem Vorlagedoku- 
ment sehr gut ubereinstimmt. Wenn das Feld auf 
dem Lesedokument und dem Vorlagedokument dem 
glelchen Konzept (Syntax, Semantik) zugeordnet 
werden kann, wird es zusatzlich als gut abblldbar be- 
urteilL Falls im Schritt SI 6 nicht alle Felder extrahiert 
worden sind, werden nun alle Felder gemad einiger 
weniger Vorlagedokumente extrahiert und das Ex- 
traktionsergebnls entsprechend bewertet. Das hier- 
bei ermltteite beste Extraktionsergebnis wird der Pru- 
fung im Schritt SI 8 zu Grunde gelegt Sollten Im 
Schritt S16 alle Felder extrahiert worden sein, wird 
das im Schritt SI 7 als bestes Extraktionsergebnis be- 
wertete Extraktionsergebnis fiir die Prufung Im Schritt 
S18 zu Grunde gelegL 

[0038] Im Schritt SI 8 wird gepruft, ob alle zu lesen- 
den Dateneinheiten gelesen worden sind, d.h., ob die 
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Extraktion volistandig durchgefuhrt worden ist, und 
ob die Extraktion fehlerfrei ist. Wenn dies der Fall ist» 
wird dieser Verfahrensabschnitt mit dem Schritt S19 
beendet, da alle Daten aus dem Lesedokument voli- 
standig und fehlerfrei extrahiert worden sind. 

[0039] Ansonsten geht der Verfahrensablauf auf 
den Schritt S20 uber, bei welchen manuell Felder in 
das Lesedokument eingegeben werden, um die ent- 
sprechenden Daten aus dem Lesedokument zu te- 
sen. Der Schritt S20 entspricht dem oben erlauterten 
Schritt S6. Danach wird das Verfahren im Schritt S21 
beendet. 

[0040] Bei den oben erlauterten Schritt S6 und S20 
kann es sein, ohne dass der Benutzer hiervon Kennt- 
nis eriangt, automatisch ein neues Vorlagedokument 
erstellt und abgespeichert wird. Dies wird mit dem in 
Fig. 3 gezeigten Verfahrensabschnitt ausgefuhrt. der 
bei Beendigung der manuellen Eingabe der Datenfel- 
der automatisch aufgerufen wird. 

[0041] Dieser Verfahrensabschnitt beginnt mit dem 
Schritt S25. Im Schritt S26 wird geprCift. ob der Fehler 
unabhangig von den in dem Vorlagedokument ent- 
haltenen Felddefinitionen ist. Dies sind insbesondere 
alle Fehler, die durch Daten verursacht werden, die 
zwar exakt an der Stelle des definierten Feldes ange- 
ordnet sind, jedoch nicht korrekt sind, wie zum Bei- 
spiel Buchstaben in Datumsangaben Oder in Betra- 
gen o.dgl. Dies sind also alles Fehler. die aus zwar 
korrekt positlonierten Daten resultieren, deren Inhalt 
jedoch nicht korrekt Ist. Wenn festgestellt wird, dass 
der Fehler unabhangig von der Felddefinition ist, be- 
deutet dies, dass die Ursache hierfur im ursprungli- 
Chen Lesedokument llegt und nicht im Vorlagedoku- 
ment. Somit ist weder eine Anderung noch Ergan- 
zung der Vorlagedokumente zweckmafiig, womit der 
Verfahrensablauf auf den Schritt S27 ubergeht und 
beendet wird. 

[0042] Wird andererseits im Schritt S26 festgestellt. 
dass der Fehler nicht unabhangig von den Felddefini- 
tionen in den Voriagedateien ist, so wird auf den 
Schritt S28 ubergegangen. Ein solcher Fehler liegt 
zum Beispiel dann vor, wenn das korrespondierende 
Feld des Vorlagedokumentes zu den zu lesenden 
Daten im Lesedokument in der Position abweicht, 
wodurch die Daten entweder unvollstandig oder nicht 
extrahiert werden. Ein ahnlicher Fehler tritt auf, wenn 
das Feld zu klein definiert ist oder wenn das Feld zu 
grof^ ist und weitere Daten enthalt, die eigentlich nicht 
gelesen werden sollten. 

[0043] In einem solchen Fall hat der Benutzer die zu 
lesenden Daten Im Schritt S6 bzw. S20 durch ein 
Feld markiert. Im Schritt S28 wird gepruft. ob diese 
neuen. vom Benutzer eingegebenen Feldangaben 
zur Korrektur des bisher verwendeten Vorlagedoku- 
mentes geeignet sind. Ist dies der Fall, wird im Schritt 



S29 das Voriagedokument entsprechend korrigiert 
und im Schritt S30 wird das derart veranderte Vorla- 
gedokument uberpruft, indem alle bisher mit diesem 
Voriagedokument bearbeiteten und extrahierten Le- 
sedokumente extrahiert werden. 

[0044] Der Begriff Korrektur bedeutet hier nicht. 
dass das bisherige Voriagedokumente nicht korrekt 
gewesen sein muss, sondern. dass das bisher ver- 
wendete Voriagedokument an sich korrekt sein kann. 
jedoch durch eine Erganzung der Feldangaben es fur 
die Abbildung seiner Felder fiir weitere Lesedoku- 
mente geeignet sein kann. Die Korrektur ist somit 
eine Verbesserung des Vorlagedokumentes aber 
nicht immer notwendigerweise eine Beseitigung ei- 
nes Fehlers. 

[0045] Bei einer alternatlven Ausfuhrungsform der 
ErTindung wird bei der Korrektur eines Voriagedoku- 
mentes dieses Voriagedokument am Bildschirm dar- 
gestellt und der Benutzer kann die Fehler des Voria- 
gedokumentes manuell verandern. Dies ist insbeson- 
dere vorteilhaft, wenn das Vorlagedokument und das 
Lesedokument zugleich am Bildschirm dargestellt 
werden ( Fig. 5). Im Voriagedokument 8 und im Lese- 
dokument 2 sind die aufeinander abgebildeten Felder 
markiert, wobei die gut abbildbaren Felder 2/1 mit ei- 
ner helleren Farbe markiert sind. als die wenlger gut 
abbildbaren Felder 2/2. Zum Beispiel sind die Ein- 
gangsstempel der Dokumente 2, 8 jeweils in einem 
Feld erfasst. Da die Eingangsstempel an unter- 
schiedlicher stelle angeordnet sind, sind sle nicht auf- 
einander abbildbar und storen die Abbildung der ei- 
gentlich in diesen Feldem enthaltenden Daten. Der 
Benutzer kann zum Beispiel diese Felder so veran- 
dern. dass die Eingangsstempel nicht mehr Bestand- 
teil der Felder sind. 

[0046] Im Schritt 831 wird gepruft. ob alle diese Do- 
kumente mit dem korrigierten Voriagedokument kor- 
rekt gelesen werden konnten. Ist dies der Fall, so be- 
deutet dies, dass die vorgenommene Korrektur des 
Voriagedokumentes auch zum Lesen der bisher be- 
arbeiteten Lesedokumente geeignet ist und uber- 
nommen wird. 

[0047] Bei der Korrektur eines Voriagedokumentes 
im Schritt S29 werden insbesondere uber mehrere 
Lesedokumente hinweg konstante Umgebungen von 
Feldern eingearbeitet. Dies heifit, dass, falls in meh- 
reren Lesedokumenten die Umgebung bestimmter 
Felder identisch ist, wird dies im Voriagedokument 
vermerkt und diese Information erhalt eine beson- 
ders hohe Bedeutung bei der Beurtellung der Ahn- 
llchkeit der Inhalte von Feldern. 

[0048] Falls im Schritt S31 festgestellt wird. dass 
nicht alle Lesedokumente korrekt gelesen worden 
sind Oder dass im Schritt S28 festgestellt wird, dass 
das Vorlagedokument mit den manuell eingegebe- 
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nen Felddefinltionen nicht korrigierbar ist, geht der 
Verfahrensablauf auf den Schritt S32 uber. Im Schritt 
S32 wird das Lesedokument mit den Felddefinitionen 
als weiteres Vorlagedokument gespeichert. In die- 
sem neuen Vorlagedokument sind die manuell einge- 
gebenen Felddefinitionen und die Definitionen des 
Vorlagedokumentes enthalten. mit dem die Oaten 
dieser Lesedatei extrahiert worden sind. 

[0049] Hierdurch wurde automatisch ein neues Vor- 
lagedokument erstellt, das bei der Auswertung der 
zukunftig zu bearbeitenden Lesedokumente beruck- 
sichtigt wird. 

[0050] Danach geht der Verfahrensablauf auf den 
Schritt S27 iiber. womit dieser Verfahrensabschnitt 
beendet wird. 

[0051] Die ErTindung wurde oben anhand eines Bei- 
spieles erlautert. Im Rahmen der Erflndung sind je- 
doch Abwandlungen gegenuber diesem Beispiel 
moglich. So konnen die Schritt S12 und S13 wegge- 
lassen werden und die Grobauswahl wird nur einmal 
mit einem Satz vorbestimmter Kriterien durchgefuhrt. 
In den Schritten SI 4 und S17 konnen die Kriterien 
unterschledlich gesetzt sein. Bei dem Schritt S16 
konnen bereits im ersten Durchgang alle Feldergele- 
sen werden. Bei dem Ausfuhrungsbeisplel gemall 
Fig. 2 erfotgt die Zuordnung eines Vorlagendoku- 
mentes zu einem Lesedokument durch die Bewer- 
tung der Extraktion der Ergebnisse nach dem in der 
Regal mehrmaligen Extrahteren des Lesedokumen- 
tes. Das Extrahieren der Daten wird somit bei der Zu- 
ordnung eingesetzt. Es ist jedoch auch moglich. das 
Verfahren so zu gestalten, dass die Zuordnung des 
Vorlagedokumentes zu einem Lesedokument unab- 
hangig von der Extraktion der Daten erfolgt 

[0052] Bei einer bevorzugten Ausfuhrungsform der 
Erfindung werden die in dem Schritt S17 ermittelten 
Ahnlichkeiten abgespeichert und statistisch ausge- 
wertet Jedem Paid ainas Vorlagedokumentes wird 
anhand der statistischen Auswertung ein Vertraulich- 
keitswert zugeordnet, der beschreibt, wie gut zu die- 
sem Feld korrespondierende Daten der Lesedoku- 
mente gelesen werden konnten. Ist der Vertraulich- 
keitswert hoch, so bedeutet dies, dass die zu diesem 
Feld korrespondierenden Daten meistens mit hoher 
Qualitat und Zuverlasslgkeit gelesen werden konn- 
ten. Vorzugsweise werden bei der Bewertung der Ex- 
traktionsergebnisse im Schritt S17 die Felder starker 
bewertet, deren Vertraulichkeltswert hoher ist. Hier- 
durch wird bei der Auswahl bzw. Zuordnung eines 
Vorlagedokumentes gut abbildbare Felder starker als 
weniger gut abbildbare Felder berucksichtigt. Dies 
steigert die Qualitat des Auswahlverfahrens. 

[0053] Weiterhin kann ein Modul zur Verfugung ge- 
stellt werden, mit walchem ein Administrator anhand 
der Statistik ermittein kann, welche Vorlagedokumen- 



te selten zur Extraktion von Lesedokumenten heran- 
gezogen werden oder oft fehlerbehaftet sind. Der Ad- 
ministrator kann gegebenenfalls entsprechende Vor- 
lagedokumente loschen bzw. bearbeiten. Dies ist 
zum Beispiel zweckmafLig, wenn ein Vorlagedoku- 
ment erstellt wird. das auf einem gescannten Doku- 
ment beruht, das sehr unklar und damit kaum leser- 
llch eingescannt worden ist. Ein derartiges Vorlage- 
dokument kann fur die weitere Nutzung ungeeignet 
sein. 

[0054] Im Rahmen der Erfindung ist es auch mog- 
lich, dass zum Beispiel bei der Bewertung der Extrak- 
tionsergebnisse gleichzeltig die Umgebung der Fel- 
der der Lesedokumente untersucht wird und mit der 
Umgebung der Felder des Vorlagedokumentes ver- 
glichen wird und, falls hier eine Identitat besteht, wird 
dies als zusatzliche Angabe zu dem Feld im Vorlage- 
dokument gespeichert. Felder, deren Umgebung mit 
vialan Lasadokumantan identisch sind, warden dann 
bei den oben beschriebenen Auswahlverfahren der 
Voriagedokumente starker berucksichtigt als Felder 
deren Umgebung sich regelmaflig andert. 

[0055] Fig. 6 zeigt schematisch ein System zum 
Ausfuhren des erfindungsgemaflen Verfahrens. Die- 
ses System 9 weist einen Computer 10 mit ainar 
Speichereinrichtung 11, mit einer zentralen Prozes- 
soreinrichtung (CPU) 12 und einer Interfaceeinrich- 
tung 13 auf. Am Computer 10 sind ein Scanner 14, 
ein Bildschirm 15 und eine Eingabeeinrichtung 16 an- 
geschlossen. Die Eingabeeinrichtung 16 umfasst 
eine Tastatur und/oder eine Maus. 

[0056] In der Speichereinrichtung 11 ist ein Soft- 
wareprodukt zum Ausfuhren des erfindungsgema- 
lien Verfahrens gaspaichart. das an der CPU 12 aus- 
gefuhrtwird. Mit dem Scanner 14 werden Dokumente 
erfasst und in eine elektronische Datei umgewandelt. 
Diese elektronischen Dateien werden vom Computer 
10 eingelesen und eventuell mittels eines OCR-Ver- 
fahrens und/oder eines Verfahrens zum Erkennen 
spezieller Syntax oder Semantik in der Datei vorver- 
arbeitet. Danach werden die in den Dateien enthaite- 
nen Dokumente entsprechend dem oben beschrie- 
benen Verfahren mit dem System 9 bearbeitet. An 
der Eingabeeinrichtung 16 konnen die entsprechen- 
den Eingaben vorgenommen werden. Diese Einga- 
ben sind lediglich auf die Definition eines Feldes und 
eventuell auf die Verknupfung mit einer Dateneinheit 
beschrankt, die dann von einer Software, zum Bei- 
spiel einer betriebswirtschaftliche Software, vorge- 
nommen wird. Diese Eingaben konnen sowohl am 
Lesedokument als auch am Vorlagedokument aus- 
gefuhrt werden, wie es oben beschrieben ist. Dies ist 
so einfach. dass sie von jeder Person ohne speziel- 
lem Software- oder Computerwissen ausfuhrbar 
sind. 

[0057] Die Erfindung kann folgendermaflen zusam- 
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mengefasst werden: 

[0058] Die Erfindung betriffl ein Verfahren und ein 
System zum Erfassen von Daten aus mehreren ma- 
schinell lesbaren Dokumenten, Beim erflndungsge- 
mafien Verfahren werden aus einem zu bearbeiten- 
den Dokument, dem Lesedokument, Daten extra- 
hiert, in dem sie an Positionen aus dem Lesedoku- 
ment ausgelesen werden, die durch in einem Vorla- 
gedokument eingetragenen Felder bestimmt sind. 

[0059] Tritt ein Fehler beim Auslesen der Lesedoku- 
mente auf, wird das Lesedokument an einem Bild- 
schirm dargestellt und ledtglich durch Markieren ent- 
sprechender Felder im Lesedokument konnen die 
Daten ausgelesen werden. Zum Bedienen des erfin- 
dungsgemaflen Systems sind keine weiteren Kennt- 
nisse notwendig. 

Bezugszeichenliste 

1 Fenster 

2 Lesedokument 

3 Fenster 

4 Dateneinheit 

5 Feld 

6 Fenster 

7 Fenster 

8 Vorlagedokument 

9 System 

10 Computer 

11 Speichereinrichtung 

12 CPU 

1 3 Interfaceeinrichtung 

14 Scanner 

1 5 Bildschirm 

1 6 Eingabeeinrichtung 

Patentanspruche 

1 . Verfahren zum Erfassen von Daten aus in ma- 
schinell lesbarer Form vorliegenden Dokumenten, 
umfassend folgende Schritte: 

- Zuordnen zu einem zu bearbeitenden Dokument, 
das nachfolgend als Lesedokument bezeichnel wird, 
zumindest ein bereits bearbeitetes Dokument, das 
als Vorlage gespeichert ist und nachfolgend als Vor- 
lagedokument bezeichnet wird, wobei in dem Vorla- 
gedokument Felder fur zu extrahierende Daten defi- 
niert sind, 

- automatisches Extrahieren der in dem Lesedoku- 
ment enthaltenen Daten aus den Bereichen, die den 
Feldem in dem Vorlagedokument entsprechen, 

- sollte beim automatischen Extrahieren der Daten 
ein Fehler aufgetreten sein oder kein geeignetes Vor- 
lagedokument zugeordnet worden sein, so wird das 
Lesedokument an einem Bildschirm dargestellt, und 
Mittel zum manuellen Eingeben von Feldern in das 
Lesedokument zur Verfugung gestellt, aus welchen 
die Daten extrahiert werden. 



2. Verfahren zum Erfassen von Daten aus in ma- 
schinell lesbarer Form vorliegenden Dokumenten, 
insbesondere nach Anspruch 1 umfassend folgende 
Schritte: 

- Zuordnen zu einem zu bearbeitenden Dokument, 
das nachfolgend als Lesedokument bezeichnet wird, 
zumindest ein bereits bearbeitetes Dokument ent- 
halt, das als Vorlage gespeichert ist und nachfolgend 
als Vorlagedokument bezeichnet wird, wobei in dem 
Vorlagedokument Felder fur die zu extrahierenden 
Daten definiert sind, und das Zuordnen mittels einer 
Kostenfunktion erfolgt, mit welcher die Ahnlichkeit 
zwischen dem Lesedokument und Vorlagedokumen- 
ten berechnet wird und das Vorlagedokument mit der 
besten Ahnlichkeit dem Lesedokument zugeordnet 
wird, und 

- automatisches Extrahieren der in dem Lesedoku- 
ment enthaltenen Daten aus den Bereichen, die den 
Feldern in dem Vorlagedokument entsprechen. 

3. Verfahren nach Anspruch 1 oder 2. dadurch 
gekennzeichnet, dass nach dem manuellen Einge- 
ben von Felder in ein Lesedokument das Lesedoku- 
ment mit den Feldangaben als neues Vorlagedoku- 
ment abgespeichert wird und/oder das bisherige Vor- 
lagedokument entsprechend den neu eingegebenen 
Feldern korrigiert wird. 

4. Verfahren nach Anspruch 3, dadurch gekenn- 
zeichnet, dass nach dem manuellen Eingeben ge- 
pruft wird, ob die bisher im Vorlagedokument enthal- 
tenen Feldangaben gemali den manuell eingegebe- 
nen Feldangaben korrigierbar sind (S28) und falls 
dies der Fall ist, eine enlsprechende Korrektur des 
Vorlagedokumentes ausgefuhrt wird (S29), wobei 
dann die Anderungen am Vorlagedokument an Hand 
der bisher bearbeiteten Lesedokumente uberpriift 
werden (S30) und, falls diese Uberprufung ergibt, 
dass mit den Anderungen nicht alle bisher bearbeite- 
ten Lesedokumente korrekt gelesen werden konnen, 
die Korrekturen venA^orfen werden und das Lesedo- 
kument mit den manuell eingegebenen Feldangaben 
als neues Vorlagedokument gespeichert wird, wobei 
das Lesedokument mit den manuellen Feldangaben 
auch als Vorlagedokument gespeichert wird, wenn 
die des bisher verwendeten Vorlagedokumentes ent- 
haltenen Feldangaben nicht automatisch korrigierbar 
sind (S28). 

5. Verfahren nach einem der Anspruche 1 oder 4, 
dadurch gekennzeichnet, dass beim manuellen Ein- 
geben von Feldern diese mit einer Datenbank ver- 
knupft werden, in der die extrahierten Daten gespei- 
chert werden. 

6. Verfahren nach Anspruch 5, dadurch gekenn- 
zeichnet, dass die Verknupfung durch Eingeben ei- 
nes Feldes in das Lesedokument und anschlie&en- 
dem Betatigen eines Elementes der Datenbank er- 
folgt 
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7. Verfahren nach einem der Anspruche 1 bis 6. 
dadurch gekennzeichnet. dass beim Zuordnen eines 
Vorlagedokumentes zu einem Lesedokument die 
Syntax und/oder Semantik einzelner Felder bewertet 
wlrd und in Abhangigkeit dieser Bewertung die Zu- 
ordnung ausgefuhrt wird. 

8. Verfahren nach einem der Anspruche 1 bis 7, 
dadurch gekennzeichnet, dass mehrere Lesedoku- 
mente dahingehend ausgewertet werden. ob die Um- 
gebung zu einem Feld im Vorlagedokument konstant 
ist, und wenn dies der Fall ist, dies gespelchert und 
als weiteres Kriterium bei der Abbildung eines Feldes 
eines Vorlagedokumentes auf ein Lesedokument be- 
rucksichtigt wird. 

9. Verfahren nach einem der Anspruche 1 bis 8, 
dadurch gekennzeichnet. dass beim Zuordnen eines 
Vorlagedokumentes zu einem Lesedokument eine 
statistische Auswertung ausgefuhrt wird, die jedem 
Feld eines Vorlagedokumentes einen Vertraulich- 
keitswert zuordnet, der beschreibt, wie gut zu diesem 
Feld kon^espondierende Daten der Lesedokumente 
gelesen werden konnten, wobei bei der Bewertung 
der Zuordbarkeit eines Vorlagedokumentes zu einem 
Lesedokument die Felder mit einem hohen Vertrau- 
lichkeitswert starker als die Felder mit einem niedri- 
gen Vertraulichkeitswert gewertet werden. 

10. Verfahren nach einem der Anspruche 1 bis 9, 
dadurch gekennzeichnet, dass nach dem manuellen 
Eingeben von Feldern das Vorlagedokument am 
Bildschirm dargestellt wird und Mittel zum manuellen 
Korrigieren von Feldern im Vorlagedokument zur Ver- 
fugung gestellt werden. 

11. System zu Durchfuhren eines Verfahrens 
nach einem der Anspruche 1 bis 10, umfassend eine 
Einrichtung 

- zum Zuordnen zu einem zu bearbeitenden Doku- 
ment, das nachfotgend als Lesedokument bezeich- 
net wird, zumindest ein bereits bearbeitetes Doku- 
ment enthalt, das als Vorlage gespeichert ist und 
nachfolgend als Vorlagedokument bezeichnet wird, 
wobei In dem Vorlagedokument Felder fur die zu ex- 
trahierenden Daten defmiert sind, und das Zuordnen 
mittels einer Kostenfunktlon erfolgt, mit welcher die 
Ahnlichkeit zwischen dem Lesedokument und Vorla- 
gedokumenten berechnet wird und das Vorlagedoku- 
ment mit der besten Ahnlichkeit dem Lesedokument 
zugeordnet wird, und 

- automatisches Extrahieren der in dem Lesedoku- 
ment enthaltenen Daten aus den Bereichen, die den 
Feldem in dem Vorlagedokument entsprechen. 

12. System nach Anspruch 11, gekennzeichnet 
durch einen Computer, auf dem ein Softwareprodukt 
zum Ausfuhren des Verfahrens nach einem der An- 
spruche 1 bis 10 gespeichert ist. 



13. System nach Anspruch 10 Oder 11. dadurch 
gekennzeichnet. dass das System einen Scanner 
zum Erfassen von Dokumenten aufweist 

Es fotgen 6 Blatt Zeichnungen 
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AnhSngende Zelchnungen 



Einlese eines oder 
mehrerer Lesedokumente 



Zuordnen eines Vorlage- 
dokumentes zu einem 
Lesedokument 



'S3 




Fig.l 
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510 



S13 



I 



Kriierien 
verfeinern 



Grobauswahl der 
Voiiagendokumente 



Auswahl zu groB?. 



nein 



Ermittein der i^hnlichkeit 
zwischen den ausgewShlten 
Vorlagedokumenten und 
dem Lesedokument 



AuswShien von Voriagedokumenten 



Extrahieren des lesedokumentes 



'S11 



-S14 



Bewertung des Extrahiemngsdokumentes 



-S15 
-516 
'SI 7 




manuelle Eingabe 



-520 



<E^d^ 



S19 



1 ' 

(Ende) 



Fig.2 
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S30> 



Oberprufung der Knderungen 
an bisher mit diesem 
Vorlagedokument 
bearbeiteten 

Lesedokumentes 



S32 



nein 

als neue Vorlage 
speichern 



S31 



nein 



alle Lese- 
dokumente kon-ekt 
gelesen? 





(jndT) 



Fig.3 



12/15 



DE 103 42 594 A1 2005.04.14 




13/15 



DE 103 42 594 A1 2005.04.14 



CSJ 




14/15 



DE 103 42 594 A1 2005.04.14 




15/15 



Page 1 of 3 



No acti 



DELPHION 





RESEARCH 




My Account 



PRODUCTS 



NSIDE DeLPHION 



Search: Quick/Number Boolean Advanced 



Derwent Record 



I View: Expand Details Go to: Delphion Integrated View 



Tools: Add to Work File: Create new Work File 



§ Derwent Title: 
^Original Title: 



Acquisition of data from machine-readable documents, e.g. for OCR, by 
extracting data from fields defined in associated reference document 

HI WQ05Q29392A1 : METHOD AND SYSTEM FOR COLLECTING DATA 
FROM A PLURALITY OF MACHINE READABLE DOCUMENTS 



^Assignee: OCE DOCUMENT TECHNOLOGIES GMBH Standard 
company 

Other publications from OCE DOCUMENT 
TECHNOLOGIES GMBH (CHEZ) ... 



^Inventor: 

Accession/ 
Update: 
^IPC Code: 

§ Derwent Classes: 

9 Manual Codes: 

^Derwent 
Abstract: 





SCHIEHLEN M; 
2005-262872 / 200561 

G06F 17/21 ; G06K 9/20 ; 

101; IQ4; 

T01-J10B2A(For recognition) . T01-J11A(Word 
processing (WP)) , T04-D04(Recognltion) 

(WO05029392A) Novelty - The method involves associating with a document to 
be read a previously processed document stored as a reference document. 
Fields are defined in the reference document for data to be extracted. The data 
are then automatically extracted from these filed. If an error occurs during the 
extraction of these data, or if no suitable reference document can be allocated, 
the document to be read is displayed on a screen, and data extraction fields are 
manually input. 

Detailed Description - An INDEPENDENT CLAIM Is included for a system for 
carrying out the method. 

Use - E.g. for optical character recognition of forms. 

Advantage - Simple to use, without computer or software knowledge. 
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